Prezentowana analiza dotyczy danych z projektu PISA 2015 opisujących wyniki badania kompetencji wśród 15-latków (ponad 0,5 mln osób) z zakresu czytania, matematyki i nauk przyrodniczych. Badani mieli 120 minut na rozwiązanie testu składającego się z 4 części.Analizowane przez nas dane ograniczają się do informacji odnośnie części matematycznej i czytania. Rozwiązanie zadań odbywało się w kolejności ich prezentowania bez możliwości powrotu i poprawy zatwierdzonej odpowiedzi. Na bazie tych wiadomości postaramy się znaleźć i opisać strategie obierane przez uczniów w trakcie rozwiązywania testu.

Ogólne informacje o danych

## 'data.frame':    8557694 obs. of  8 variables:
##  $ Kraj   : Factor w/ 83 levels "Albania","United Arab Emirates",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Szkola : num  3600001 3600001 3600001 3600002 3600003 ...
##  $ Student: num  3601769 3605983 3602143 3611016 3605314 ...
##  $ Zestaw : chr  "31" "85" "36" "37" ...
##  $ Czas   : num  195552 143354 206815 117352 174955 ...
##  $ Zadanie: chr  "R219Q01" "R219Q01" "R219Q01" "R219Q01" ...
##  $ Pozycja: num  3 2 4 1 4 2 4 1 2 3 ...
##  $ Obszar : chr  "R" "R" "R" "R" ...
## [1] "Kraj"    "Szkola"  "Student" "Zestaw"  "Czas"    "Zadanie" "Pozycja"
## [8] "Obszar"


Mamy do dyspozcji 8.5 mln obserwacji opisanych przez 8 wypisanych wyżej wartości.Dane zawierają informacje opisujące czas wykonywania zadań przez uczniów z 58 krajów.Po sprawdzeniu wiemy, że każdy ze studentów pisał co najwyżej dwie części (1 i 2 lub 3 i 4) - czytanie i matematykę.

## Ogólne informacje:
##  63   Liczba różnych zestawów
##  182   Liczba zadań
##  58   Liczba krajów
##  355733   Liczba studentów
##  15279   Liczba szkół


Średnio każdy z uczniów rozwiązał ok. 23 zadania, jednak wśród badanych znajdują się również osoby, które rozwiązały od 1 do 30 zadań.

Porządkowanie danych

Analizując statyki opisowe czasu rozwiązywania poszczegółnych zadań (w minutach) prezentowane poniżej widzimy, że konieczne jest uporządkowanie danych i pozbycie się obserwacji mogących zawierać błędne bądź przypadkowe informacje.

summary((data$Czas)/1000/60)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##   0.0024   0.5973   1.1170   1.4510   1.8980 734.0000

Gdy wyrazimy czas w minutach widać, że na niektóre z zadań przeznaczono dużo więcej niż regulaminowe 2-godziny niezbędne na wykonanie testu (Max>120). Musimy pozbyć się takich danych.

## [1] 227


Ponad 227 z ok.356 tys. uczniów przeznaczyło więcej niż 2 godziny na wykonywanie testu zgodnie z przedstawionymi danymi. Ze względu na dużą ilość danych pozbędziemy się “nieprzepisowych”. Usuwamy również obserwacje, dla których Pozycja przyjmuje wartość -1, gdyż świadczy to o błędnym wprowadzeniu danych. Upewniliśmy się również czy w zbiorze obserwacji nie występują luki w danych - tzn. “NA”, gdyż konieczne byłoby ich zastąpienie.
Jak widzimy wyżej czasy wykonywania niektórych zadań są na tyle małe, że mogą wiązać się z przypadkowym pominięciem przez ucznia (nie jest w stanie zapoznać się z zadaniem w 0.15 s). W związku z tym zadania te nie są częścią strategii przyjętej przez ucznia a błędem, który zaburza analizę. Wydaje nam się, że rozsądne ograniczenie dolne czasu przeznaczonego na zadanie wynosi 1s, gdyż student po szybkiej ocenie zakresu zadania może świadomie podejmować decyzję o jego pominięciu, co stanowi część badanej strategii.
Część z obserwacji zaburza analizę ze względu na duże czasy rozwiązywania zadania (np. 85 minut poświęcone na jedno zadanie). Może to wiązać się z wyjściem ucznia z klasy i przerwaniem wykonywania testu, co zapewne nie jest częścią przyjętej przez niego strategii. W związku z tym pozbędziemy się obserwacji, których czas przekracza górną granicę 15 minut.


Korzystając z funkcji boxplot.stats udało nam się zlokalizować ok 400 tys. obserwacji odstających. Dane bez odstających obserwacji oznaczamy przez data2. Uwzględnimy je w dalszej analizie , jednak nie chcemy ich na razie usuwać gdyż mogą być istotne przy porównywaniu krajów.

Porównanie obszarów


Jak widzimy na wykresie poniżej zadania z części matematycznej i czytania są wykazane w podobnej wielkości obserwacji.


Statystyki opisowe czasu (w minutach) wykonywania zadań z matematyki:

summary((dataM$Czas)/60000)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.01668  0.77960  1.28800  1.62100  2.06800 15.00000


Statystyki opisowe czasu (w minutach) wykonywania zadań z czytania:

summary((dataR$Czas)/60000)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.01668  0.48780  0.96040  1.30200  1.74400 15.00000


Powyżej prezentujemy podstawowe statystyki czasu przeznaczonego na zadanie w każdym z obszarów. Już na pierwszy rzut oka widać, że zadania z matematyki są wykonywane dłużej aniżeli zadania z czytania. Minimum i maximum w obu prezentowanych statystykach są sobie równe ze wględu na narzucenie wcześniej dolnych i górnych ograniczeń na czas wykonywania zadania.
Dodatkowo porównajmy histogramy czasów rozwiązywania zadania z matematyki oraz czytania, które prezentujemy poniżej.
Gdy porównamy histogramy czasów wykonywania zadań z obu obszaróW, widzimy, że zadania z matematyki były rozwiązywane dłużej co potwierdza wcześniej przedstawioną hipotezę.

Porównanie części testów (opisanych przez zmienną Pozycja)


Jak widzimy na wykresie poniżej zadania z wszystkich części testu są wykazane w podobnej wielkości obserwacji.


Podstawowe statystyki czasu (w minutach) wykonywania zadań w każdej części testu prezentują się następująco:

## Pozycja 1 :
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.01668  0.72990  1.33300  1.71500  2.25100 15.00000
## Pozycja 2:
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.01668  0.59180  1.09100  1.37500  1.81500 15.00000
## Pozycja 3:
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.01668  0.60510  1.10900  1.43100  1.87800 14.99000
## Pozycja 4:
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.01668  0.51320  0.97770  1.26000  1.66400 15.00000


Wnioskując jak wcześniej, widzimy, że średni czas przeznaczony na zadanie z części pierwszej jest najdłuższy natomiast na zadania z ostatniej części testu przeznaczono najmniej czasu.
Rozkład łącznego czasu przeznaczonego na każdą z części pokazują poniższe boxploty.


Boxploty przedstawiają rozkład czasu przeznaczonego na każdą z części testu (wyrażony w minutach). Analizując powyższy wykres dochodzimy do wniosku, że najwięcej czasu przeznaczano na wykonanie częsci pierwszej, druga część wykonywana była znacznie krócej. Jednak ten malejący trend nieznacznie odwraca się w przypadku części trzeciej, na którą poświęcano więcej czasu niż na część drugą ale mniej niż na część pierwszą. Natomiast część czwarta była zdecydowanie najszybciej wykonywaną z części. Może to wynikać z presji czasu, którą odczuwali uczniowie badź też z kolejności umieszczania obszarów w poszczególnych częściach testu. Prezentowany poniżej wykres kołowy pozwoli nam ocenić przyczyny takich zależności.


W każdej z części testu zadania z matematyki i czytania wykazane są w podobnych wielkościah tak więc zapewne nie mają one wpływu znaczącego wpływu na czas poświęcony na wykonanie kolejnych części testu. Zatem możemy przypuszczać, że opisana zależność wynika z presji czasu jakiej poddani są uczniowie.

Porównanie krajów


Badane kraje wykazane są w następujących częściach obserwacji:


Jak widzimy liczba obserwacji przypadających na każdy z krajów jest podobna, dzięki czemu analiza porównawcza ma większy sens i nie będzie zaburzana różnicami w wielkości dostępnych danych.
Poniżej prezentujemy średnie czasy rozwiązywania zadań z czytania i matematyki dla każdego z krajów.

Wykres przedstawiony wyżej prezentuje średni czas poświęcony na zadanie z części matematycznej oraz czytania w każdym z badanych krajów. Najszybciej zadania z obu częci wykonywane są przez studentów z Korei natomiast najdłuższy średni czas poświęcony jest na zadania w Peru.Jak widzimy większość punktów na wykresie odpowiadających poszczególnym krajom jest skupiona blisko siebie i wzdłuż przekątnej wykresu co świadczy o tym, że większość krajów wykazuje podobne średnie czasy rozwiązywania zadań z obu częśći oraz czasy rozwiązywania problemów z obu obszarów są ze sobą powiązane (szybsze rozwiązywanie zadań z matematyki w danym kraju w porównaniu z innymi najczęśćiej wiąże się również z szybszym rozwiązywaniem zadań z czytania).


Następny wykres pokazuje średnie czasy wykonywania zadań w każdej z kolejnych części testów w rozróżnieniu na kraje.
Tu również możemy dostrzec opisaną wcześniej zależność, mianowicie zachowanie średniego czasu rozwiązywania zadań w rozróżnieniu na częsci testu, które jest wyraźne w przypadku np. Brazyli, Tunezja czy Peru. Jednak w części z krajów zależność ta jest znikoma. Przykład mogą stanowić chociażby Korea czy Holandia, gdzie różnice między częściami testu są niezauważalne. Może to świadczyć o tym, że w tej części krajów studenci są znacznie mniej podatni na presje czasu i lepiej przygotowani do testu.
Największe zróżnicowanie między czasami wykonywania zadań pomiędzy krajami widoczne jest w części pierwszej testu natomiast najmniejsze w części czwartej.
Podobne wnioski możemy osiągnąć z wykresu zaprezentowanego poniżej, który jest analogiczny do wcześniejszego jednak pozwala nam przeprowadzić analizę w rozróżnieniu na obszary testu.


Opisany wyżej trend (zadania z czytania są rozwiązywane szybciej niż z matematyki) możemy dostrzec również tutaj. Jednak w części z krajów różnice pomiędzy obszarami są bardziej widoczne, jak chociażby w Estonii czy Meksyku w innych natomiast są znikome (np. Hong Kong, Tunezja)
Poniżej prezentujemy średni rozkład czasów dla krajów, który pomoże nam określić części testu które charakteryzują się dużym zróżnicowaniem wśród badanych krajów.
Jak widzimy największe zróżnicowanie wśród krajów występuje na pozycji pierwszej. Świadczy to o tym, że to właśnie tutaj możemy dopatrywać się największych różnic między krajami. Również czas przenaczony na część matematyczną w każdym z krajów jest znacznie bardziej zróżnicowany aniżeli na czytanie.

Analiza grup

Wybór grup


Na kolejnym etapie analizy danych postaramy się wskazać i opisać typowe wzorce zachowań jeżeli chodzi o czas realizacji zadań w teście. Aby to zrobić obliczymy średnie czasy wykonywania poszczególnych zadań w szkołach, których mamy ponad 15 000. Agregowanie danych do poziomu szkół pozwoli nam ograniczyć dane na tyle, aby analiza była możliwa jednocześnie pozostawiając dużą część informacji. Poniżej prezentujemy fragment tabeli, która będzie podstawą dalszej analizy. Jeśli zadanie nie było rozwiązywane w badanej szkole to przypisujemy mu wartość 0.

## Source: local data frame [5 x 10]
## Groups: Szkola [5]
## 
##    Szkola  M00GQ01  M00KQ02  M033Q01   M034Q01  M155Q01  M155Q02  M155Q03
##     <dbl>    <dbl>    <dbl>    <dbl>     <dbl>    <dbl>    <dbl>    <dbl>
## 1 3600001 138605.5  57826.0 59236.00 106481.75 60206.00 169825.8 183235.8
## 2 3600002  58507.0  89647.5 46399.50  71079.00 86104.50 133564.5 419471.5
## 3 3600003 156423.7 113302.8 37642.33  68764.33 88414.67 242970.3 280089.3
## 4 3600004  79881.0  84454.5 53609.33 117031.00 59939.00 101949.3 143063.3
## 5 3600005 110379.5 151435.5 41154.80  97510.80 63059.60 115640.4 165639.2
## # ... with 2 more variables: M155Q04 <dbl>, M192Q01 <dbl>


Odległości między szkołami obliczymy przy pomocu metryki “manhattan”, którą ustalamy jako jeden z parametrów funkcji dist. Wybieramy metodę łączenia grup Warda, która pozwoli nam minimalizować wewnątrzgrupową wariancję.


Po wykonaniu powyższych działań kluczowe jest znalezienie optymalnej liczby grup, na które będziemy dzielić opisywane strategie. W tym celu wykorzystamy statystykę: gap-statistic, której wyniki prezentujemy poniżej.
Zatem optymalny jest podział na 8 grup. W takim przypadku liczba szkół przynależnych do poszczególnych grup przedstawia się następująco:

## hc_szkoly_cut
##    1    2    3    4    5    6    7    8 
## 4262 3996 2032 1117  680 1887  757  445


Analiza stworzonych grup


Porównanie średnich i odchyleń czasu wykonywania zadań w grupach


Skoro stworzyliśmy już grupy musimy je teraz scharakteryzować. W tym celu najpierw porównamy średnie czasy rozwiązywania zadań oraz odchylenia standardowe. Pierwszy z prezentowanych wykresów przedstawia poszczególne grupy na układzie współrzędnych opisanym przez odchylenie standardowe oraz średnie czasy rozwiązywania zadań.


Widzimy, że grupa 3 charakteryzuje się niskimi średnimi i odchyleniami w porównaniu z pozostałymi. Oznacza to, że uczniowie w tej grupie przeznaczali podobną ilość czasu na każde z zadań i rozwiązywali je stosunkowo szybko. Natomiast grupa 7 wykazuje sie dużymi różnicami między czasami rozwiązywania poszczególnych zadań, które rozwiązywali stosunkowo długo. Jednak głębsza analiza na podstawie tego wykresu nie jest możliwa. W związku z tym bardziej szczegółowe informacje mogą być widoczne z boxplotów powyższych statystyk dla poszczególnych grup, które prezentujemy poniżej.


Z boxplotów widzimy, że największe różnice w czasach rozwiązywania zadań charakteryzują grupę 7. Natomiast grupa 3 na każde z zadań przeznaczała podobną ilość czasu. Dodatkowo grupa 5 ma stosunkowe niskie średnie czasy rozwiązywania zadań,a grupa 6 podobnie jak grupa 3 małe różnice w czasach wykonywania poszczególnych zadań.


Porównanie statystyk dla obszarów między grupami


Podobne wykresy możemy skonstruować w podziale na obszary wykonywania testu. Pozwoli nam to dookreślić strategie reprezentowane przez opisywane grupy. Spójrzmy zatem na boxploty dla odchyleń czasów rozwiązywania zadań z matematyki i czytania.


Z porównania powyższych wykresów możemy wywnioskować, że w przypadku grupy 6 różnice w czasie rozwiązywania zadań z matematyki są większe aniżeli w przypadku zadań z czytania.

Porównywanie różnic między poszczególnymi pozycjami w grupach


Aby opisać strategie kluczowe może być również porównanie łącznego czasu przeznaczonego na każdą z pozycji testu. Na wykresie poniżej prezentujemy wspomniane porównanie.
Obserwując powyższe wykresy zauważamy, że w przypadku grupy 1 i 2 na każdą z pozycji przeznaczono podobną ilość czasu, jednak grupa 1 rozwiązywała je szybciej. Grupa 8 pisała część 2 i 4 testu najkrócej spośród wszystkich prezentowanych. Natomiast grupa 7 poświecała znacznie więcej czasu na pierwszą część testu w porównaniu z pozostałymi grupami (powyżej 30 minut!).


Porównanie liczby rozwiązanych zadań między grupami


Dodatkowo sprawdźmy ile średnio zadań rozwiązywano w każdej z grup. Prezentujemy to na wykresie poniżej.


Z wykresu możemy wywnioskować, że w przypadku grupy 4 rozwiązywano średnio najwięcej zadań. Natomiast w grupie 7 rozwiązywano ich najmniej. Ze względu na nieduże różnice w łącznej ilości rozwiązanych zadań przydatne może być odróżnienie ilości rozwiązanych zadań z matematyki i czytania. Wielkości te porównujemy poniżej.


W przypadku grupy 7 różnica w ilości rozwiązanych zadań z matematyki i czytania jest mniejsza niż w innych grupach. Stosunkowo mało zadań rozwiązano również w grupie 8.

Podsumowanie grup


Podsumowując powyższą analizę poniżej opiszemy zauważone cechy charakterystyczne każdej z grup.
Grupa 1 - na każdą z pozycji testu przeznaczamy podobną ilość czasu (ok.17 min);
Grupa 2 - na każdą z pozycji testu przeznaczamy podobną ilość czasu (ok.19 min);
Grupa 3 - rozwiązujemy zadania szybko i przeznaczając na nie podobną ilość czasu;
Grupa 4 - rozwiązujemy dużą liczbę zadań;
Grupa 5 - rozwiązujemy zadania szybko;
Grupa 6 - przeznaczamy podobną ilość czasu na każde z zadań w teście, jednak różnica w czasach rozwiązywania zadań z ;
Grupa 7 - najwięcej czasu poświęcamy na część 1, rozwiązujemy mało zadań, przeznaczając na nie dużo czasu
Grupa 8 - poświęcamy najmniej czasu na pozycję 2 i 4